【Day6】淺談Transformer-跟變形金剛一樣強大 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 6

0

AI & Data

淺談生成式AI與相關應用工具探索系列第 6 篇

【Day6】淺談Transformer-跟變形金剛一樣強大

15th鐵人賽 transformer attention self-attention 注意力

2023-09-21 11:49:43

773 瀏覽

分享至

Transformer是一種深度學習模型架構，最初由Google Brain團隊在2017年發表了一篇論文 Attention Is All You Need 中所提出，主要應用於自然語言處理和序列處理任務。
Transformer模型由兩部分組成，即編碼器（Encoder）和解碼器（Decoder）。編碼器用於處理輸入序列，而解碼器用於生成輸出序列。主要創新引入了自我注意力機制（self-attention），讓模型能夠更好地理解序列資料中的內部關係和上下文，甚至效能優於傳統的RNN神經網路。

傳統RNN的缺點

1. 遠距離依賴問題

RNN模型對於輸入序列中，遠距離的依賴關係學習效果較差。前面的資料隨著時間的過去，其影響力逐漸減弱。這讓RNN難以處理長序列，例如自然語言處理中的長句子。

2. 速度較慢

由於RNN的順序處理特性，不同時間步的計算無法同時進行，這導致模型的計算速度較慢，處理大規模輸入數據更加耗時。

自注意力機制(Self-Attention)優點

1. 平行運算

自注意力機制使得模型可以同時處理序列中的所有位置，這是因為它使用矩陣計算，而不像RNN一樣需要按照時間步驟依次處理。這種平行處理的能力大幅提高了計算效率，特別是對於長序列和大規模數據的處理，自注意力機制在速度上優於傳統的序列模型。

2.全局理解

自注意力機制讓模型在處理序列時能夠理解所有的輸入，也就是每個位置都可以關注序列中的所有其他位置，而不僅僅是局部片段。這有助於模型更全面地理解輸入資料的語境和內容，進而提高了模型的表現。

【Day5】淺談NLP-自然語言處理

【Day7】淺談Foundation Model-基礎模型

系列文

淺談生成式AI與相關應用工具探索共 8 篇

目錄

RSS系列文訂閱系列文

3 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19867 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙